📱Как кросс-валидация применяется к большим нейросетям (например, GPT-подобным моделям) с миллионами или миллиардами параметров
Полноценная k-фолд кросс-валидация в контексте таких моделей обычно непрактична из-за колоссальных затрат времени и вычислительных ресурсов. Однако есть ряд подходов, позволяющих сбалансировать проверку качества модели и реалистичность обучения:
❗️Возможные стратегии
1. Уменьшенное значение k (Reduced k)
Часто используют просто отложенную выборку (hold-out) или 2-фолд кросс-валидацию. Иногда применяют случайные разбиения несколько раз вместо традиционных 5-10 фолдов.
2. Чекпойнты и частичное повторное использование весов
Хотя обучение на каждом фолде требует разных данных, можно: 🟠дообучать модель с уже натренированными весами, 🟠использовать подходы transfer learning или fine-tuning.
Это не полностью корректно, но снижает затраты.
3. Параллельное и распределённое обучение
Если есть достаточное количество ресурсов (кластер, TPU/облачные GPU), фолды можно обучать параллельно.
4. Субсэмплирование данных
При очень больших датасетах можно делать случайную подвыборку на каждом фолде. Это сохраняет распределение, но уменьшает общий объём обучающих данных.
📱Как кросс-валидация применяется к большим нейросетям (например, GPT-подобным моделям) с миллионами или миллиардами параметров
Полноценная k-фолд кросс-валидация в контексте таких моделей обычно непрактична из-за колоссальных затрат времени и вычислительных ресурсов. Однако есть ряд подходов, позволяющих сбалансировать проверку качества модели и реалистичность обучения:
❗️Возможные стратегии
1. Уменьшенное значение k (Reduced k)
Часто используют просто отложенную выборку (hold-out) или 2-фолд кросс-валидацию. Иногда применяют случайные разбиения несколько раз вместо традиционных 5-10 фолдов.
2. Чекпойнты и частичное повторное использование весов
Хотя обучение на каждом фолде требует разных данных, можно: 🟠дообучать модель с уже натренированными весами, 🟠использовать подходы transfer learning или fine-tuning.
Это не полностью корректно, но снижает затраты.
3. Параллельное и распределённое обучение
Если есть достаточное количество ресурсов (кластер, TPU/облачные GPU), фолды можно обучать параллельно.
4. Субсэмплирование данных
При очень больших датасетах можно делать случайную подвыборку на каждом фолде. Это сохраняет распределение, но уменьшает общий объём обучающих данных.
Mr. Durov launched Telegram in late 2013 with his brother, Nikolai, just months before he was pushed out of VK, the Russian social-media platform he founded. Mr. Durov pitched his new app—funded with the proceeds from the VK sale—less as a business than as a way for people to send messages while avoiding government surveillance and censorship.
Importantly, that investor viewpoint is not new. It cycles in when conditions are right (and vice versa). It also brings the ineffective warnings of an overpriced market with it.Looking toward a good 2022 stock market, there is no apparent reason to expect these issues to change.
Библиотека собеса по Data Science | вопросы с собеседований from kr